用手操纵的对象(即Manipulanda)对于从互联网视频中重建的重建尤其具有挑战性。手不仅会阻塞大部分观察,而且对象通常仅在少数图像像素中可见。同时,在这种情况下出现了两个强大的安装:(1)估计的3D手有助于消除对象的位置和规模,以及(2)相对于所有可能的观察,Manipulanda的集合很小。考虑到这些见解,我们提出了用于手持对象重建的可扩展范式,该范式基于大型语言/视觉模型和3D对象数据集的最新突破。鉴于单眼RGB视频,我们的目标是随着时间的流逝,以3D的形式重建手持对象几何形状。为了获得最佳性能的单帧模型,我们首先提出MCC手对象(McCho),该模型共同重建手和对象地理位置 - 给定单个RGB图像,并将3D手推断为输入。随后,我们使用GPT-4(v)提示文本到3D生成模型,以检索与图像中对象匹配的3D对象模型;我们称此对齐方式检索重建(RAR)。RAR提供
主要关键词